بازشناسی مقاوم گفتار با روش دادگان مفقود با استفاده از شبکه عصبی دوسویه
thesis
- وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد
- author حجت محمدنژاد
- adviser منصور ولی علی مطیع نصرآبادی
- Number of pages: First 15 pages
- publication year 1389
abstract
عملکرد سیستم های بازشناسی گفتار (asr) زمانی که گفتار توسط نویز تخریب شده باشد، به شدت کاهش می یابد. روش های ویژگی های مفقود قصد دارند که این کاهش بازشناسی را با حذف مولفه هایی از نمایش زمانی- فرکانسی گفتار (اسپکتروگرام) که بیانگر نسبت سیگنال به نویز (snr) پایین باشند، کاهش دهند. این روش ها اثر خود را در نتایج صحت بازشناسی نشان می دهند که در مقابل اثر نویز جمعی، مقاوم بودن بالای خود را بروز می دهند. در این پایان نامه، ما از یک شیوه ی رایج جبران سازی دادگان که در آن عناصر مفقود، برای بدست آوردن اسپکتروگرام کامل بازسازی می شوند استفاده خواهیم کرد که از آن با عنوان جبران سازی مبتنی بر دادگان مفقود یاد می شود. در این شیوه برای تخمین مولفه های مفقود اسپکتروگرام، از همبستگی بین مولفه ها، استفاده می شود. در ادامه یک شیوه جدید مطرح می کنیم که الگوی ویژگی های مفقود را با دیدگاهی نو به عنوان مسئله جبران سازی دادگان مطرح می کند. در این روش از شبکه عصبی دوسویه بهره گرفته می شود که به صورت هم زمان بر روی دادگان تمیز و نویزی جهت بازشناسی آواهای گفتار آموزش داده می شود تا با انجام یک سری پردازش های غیر خطی و دوطرفه (جلوسو و برگشتی) بتوان از دانش نهفته در مدل، ناشی از یاد گرفتن گفتار تمیز و نویزی بهره گرفته و بردارهای بازنمایی گفتار را در جهت افزایش صحت بازشناسی آواهای گفتار بهبود بخشید. در هر دو روش ویژگی های کپستروم بدست آمده از اسپکتروگرام بازسازی شده، برای بازشناسی مورد استفاده قرار می گیرند بدون اینکه سیستم بازشناسی نیازی به اصلاح داشته باشد. روش مبتنی بر دادگان مفقود، از دو بخش شناسایی مولفه های مفقود و اصلاح آن ها تشکیل شده است. روش اصلاح ویژگی مبتنی بر شبکه عصبی دوسویه، از این قاعده مستثنی بوده چرا که نیازی به شناسایی مولفه های مفقود ندارد و بازسازی را در جهت هرچه شبیه تر شدن تمامی مولفه ها (خواه معتبر باشد خواه نامعتبر) به مولفه های گفتار تمیز صورت می دهد و این یک برتری بسیار چشمگیری است که در این تحقیق حاصل شده است؛ چرا که در عمل، بحث شناسایی مولفه های مفقود، که یک بحث چالش برانگیز در تمامی روش های بکارگرفته شده در جهت بازشناسی مقاوم گفتار است و ارتباط مستقیمی با میزان صحت بازشناسی دارد را حذف می کند. ارزیابی هایی که در این تحقیق بر روی دو روش ذکر شده صورت گرفت، بهبود 2/4 درصدی بر روی صحت بازشناسی بدست آمده برای گفتار نویزی تخریب شده توسط نویز با نسبت سیگنال به نویز 0 db با استفاده از روش اصلاح ویژگی مبتنی بر دادگان مفقود، حاصل کرد و بهمان نحو بهبود 5/8 درصدی را برای همان نرخ نویز تخریبی با استفاده از روش اصلاح ویژگی مبتنی بر شبکه عصبی دوسویه، به نمایش گذاشت. در آخر کار با ترکیب دو روش یاد شده، توانستیم پیشرفت چشمگیری در حدود 10 درصد در روند بازشناسی سیگنال های تخریب شده بدست آوریم.
similar resources
روشی جدید در بازشناسی مقاوم گفتار مبتنی بر دادگان مفقود با استفاده از شبکه عصبی دوسویه
Performance of speech recognition systems is greatly reduced when speech corrupted by noise. One common method for robust speech recognition systems is missing feature methods. In this way, the components in time - frequency representation of signal (Spectrogram) that present low signal to noise ratio (SNR), are tagged as missing and deleted then replaced by remained components and statistical ...
full textبازشناسی مقاوم گفتار با استفاده از ویژگی الگوهای زمانی به دست آمده از ساختار شبکه عصبی بهینه شده MTMLP
ویژگی الگوهای زمانی سیگنال صوتی از دو حوزه زمانی و یا بردارهای بازنمایی شده قابل استخراج است. این ویژگی دربرگیرنده اطلاعات و مشخصات زمان بلند از تغییرات پیوسته واحدهای گفتاری است. در این مقاله، ویژگی الگوهای زمانی با استفاده از خروجی مقدار احتمال پسین واجی ساختار بهینه شده شبکه عصبی MTMLP، از مجموعه بردارهای بازنمایی مبتنی بر طیف (مانند ویژگی گفتاری LFBE) و همچنین، مبتنی بر کپستروم (مانند ویژ...
full textبازشناسی گفتار نویزی با اصلاح روش خوشه بندی در دادگان مفقود
بر خلاف سیستم شنوایی انسان ها، سیستم های خودکار بازشناسی گفتار نسبت به نویز زمینه بسیار حساس هستند. این اثر ناشی از تفاوت مابین آمارگان مدل های گفتار تعلیمی است با آنچه که در شرایط واقعی از آنها استفاده می شود. جبران نکردن چنین عدم انطباقی، دقت سیستم های بازشناسی را به شدت کاهش می دهد. در این گزارش، جهت جبران عدم انطباق بین دادگان تعلیم و تست از یکی از روش های ویژگی مفقود تحت عنوان بازسازی مب...
15 صفحه اولشبکه عصبی پیچشی با پنجرههای قابل تطبیق برای بازشناسی گفتار
Although, speech recognition systems are widely used and their accuracies are continuously increased, there is a considerable performance gap between their accuracies and human recognition ability. This is partially due to high speaker variations in speech signal. Deep neural networks are among the best tools for acoustic modeling. Recently, using hybrid deep neural network and hidden Markov mo...
full textبازشناسی مقاوم چهره با استفاده از شبکه عصبی
ویژگیهای استخراج شده از تصاویر چهره انسان، تحت تأثیر تنوعات مختلف نظیر تغییرات در نورپردازی، چرخش سر، داشتن حالتهای احساسی و سایر موارد تغییر می کند. به دلیل تأثیر این تنوعات غیرخطی در الگوهای ورودی، کارآیی سامانه های خودکار بازشناسی چهره در شرایط کنترل نشده به طور چشم گیری کاهش می یابد. برای افزایش کارآیی سامانه های بازشناسی چهره نسبت به این تنوعات، باید ویژگیهای مشابه برای تصاویر هر فرد استخر...
15 صفحه اولارتقاء کیفیت بازشناسی گفتار تلفنی و غیر تلفنی با استفاده از اشتراک دانش آوایی دادگان
سیستمهای بازشناسی مقاوم گفتار به سیستمهایی اطلاق می گردد که در شرایط عدم انطباق داده های آموزش و آزمون صحت بازشناسی قابل قبولی داشته باشند. در تحقیق حاضر یک سیستم بازشناسی مقاوم گفتار تلفنی، مبتنی بر اصلاح بردارهای بازنمایی توسط شبکه عصبی دوسویه (یک شبکه عصبی چند لایه معمولی به علاوه یک شاخه برگشتی که اطلاعات لایه مخفی شبکه را با ورودی شبکه ترکیب می کند) و مدلهای مخفی مارکف به عنوان مدلهای بازش...
15 صفحه اولMy Resources
document type: thesis
وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023